そこで、ニューヨーク・タイムズ(NYT)の記事検索の結果と、対象を限定しないグーグル検索の結果を比較してみよう。ここでは、“data mining”という言葉を例として検索してみることにする。ヒットするデータの総数は、グーグル検索の場合に557万件、NYTでは1万9900件である。このように、両者の間には大きな差がある。
しかし、「数が多いからよい」と言えないことは明らかだ。なぜなら、どちらも大量であるため、そのすべては見られないからである。NYTの記事も、すべては見切れない(タイトルページだけに限ってもすべてはチェックできない)。実際には、数百件をチェックするのが限度だろう。そう考えると、557万件と1万9900件の差に意味があるとは思えないのである。
ご用心!「グーグル」の検索結果があなたの目を曇らせている?|野口悠紀雄が探る デジタル「超」けもの道|ダイヤモンド・オンライン
膨大なウェブから,自分の必要な情報を探し出すのは本当に大変なことで,世の中では色々なアプローチが行われている.例えば,レコメンデーション(パーソナライズ)だったり,セマンティックだったり.どれもこれもが,「これぞ!」という感じではなく,完璧とはいえない.完璧といえないのは,システムの所為ではなく,どちらかと言えば,人間の所為であろう.
例えば,レコメンデーションでいこうか.ちょっとGoogle検索の話から逸れてしまうのだが,Amazonの話で.J君は基本情報処理技術者試験に向けて,参考書をたくさん買いました.それはそれはたくさん買いました.試験結果は別として,試験が終わりました.さぁ,Amazonでお勧めされる本はなんでしょう?J君はもう情報処理試験の本は必要ないのにねっ!空気嫁.
例えば,セマンティックな話をしようか.セマンティクスに,ウェブを意味づけして,検索する,っていうじゃなーい?でも,インターネット初心者は検索キーワードに複数語を入れませんからぁ!!残念!!単語だけじゃ,意味を酌むのは無理.切り.
人間はね,もっと機械的な動きをすれば,ウェブの情報を効率よく取り出せるようになると思うんだよ.人間は人間らしく曖昧な行動を取るから,上手く行かないんだと思う.
夏合宿でちょっと話したのだが,最近よく耳にするようになった言葉が,大変気になるようになってきた.昔は自分もよく使っていただけに,反省しきりである.その言葉はあなた方も使っているかも知れない.
「ググれ」
ググれという人は情報がなんたるかをわかっているのだろうか.何故ググれるのかを理解しているのだろうか.Googleが頑張っているから?いや,そんな話ではなく,その検索結果は誰かがウェブ上に情報を放ったからである.もし,誰も情報を発信しなかったとすれば,ググっても,何も見つからないはずだ.情報がないのだから.そう,我々が得る情報は,誰かがどこかで発信した情報なのだ.つまり,我々は情報をtakeしてるのだ.では,ググれググれ言っている人達は,ウェブ上に貢献したのか?giveしたのか?give&takeの精神は忘れたのか?
だから,オレは多くの人にブログを書くことを勧めている.情報はウェブに存在してこそ,ウェブの価値は高まる.もちろん,そうやって書かれる情報の全てが有益とは限らないが,無益ではない.ウェブの情報氾濫を促進する悪しき行為だと非難されそうだが,可能性は開く方向でお願いします.まだ書かれていない情報について,有益か無益かを議論するのは無駄です.
そこで,多くの人にオススメしたいのはトラブルに遭遇した時の体験談だ.何が起きたのか,どうしたのか,どうやって,どうなったのか,解決したのか,しなかったのか.皆さんもご存じだと思うが,WindowsやLinuxで発生する意味不明なエラー各種.そこに表示される意味不明なエラーメッセージをそのままグーグル先生に投げつける.往々にして,グーグル先生はそのトラブルについて書かれた記事を紹介してくれる.その多くはブログ形式である.そして,問題は解決するのである(しない時もあるけど).だから,トラブルに遭遇したら,そのことをブログに書いたらいいと思う.解決してもしなくても.これはきっとかなり役に立つ.全く以て,グーグルは優秀なFAQである.これをセマンティックウェブとかオントロジー的に整理したら,素晴らしいDBになると思うのだが,誰かやらないかなぁ・・・.
閑話休題.というか,前振り終了.実はこの記事を引用したのは,Google検索が貧弱だとか,ウェブに情報が氾濫しているとか,そんな話をしたかったからではない.取り上げたかったのは,こっちだ.目の付け所がおかしいのがオレ.
ブログは、その存在を探し出すのが容易でない。しかし、新聞社の中にあるブログは存在が明らかなので有利だ。大学でもブログのページを作ったらよいと思う。
ご用心!「グーグル」の検索結果があなたの目を曇らせている?|野口悠紀雄が探る デジタル「超」けもの道|ダイヤモンド・オンライン
激しく同意したい.所属を明らかにしたブログは,それなりの価値があるだろう.所属が明らかであることは,非常に重要である.例えば,芸能人などがアメーバあたりでブログを書くわけだ.「○○公式ブログ」などと銘打って.これが,本物であることはどのようにして確認するのだろうか.これがもし,所属プロダクションのドメイン内にあるブログだったら,その所属を確認することは簡単である.だが,それ以外の誰もがそれを名乗ることが出来るような状況下で,そう名乗ったことを,どのように本当であると確認するのだろうか.2chで誰かの名前で何かが書かれたとしても,本人が書いたのか,他人が書いたのか,どのようにして確認するのだろうか.
だから,所属が明らかではないところで述べられていることの正確性や信頼性なんて,匿名で書かれていることと何ら変わらない.違うとするならば,精々思い込みである.本当に必要なことは,情報を誰が書いたかではない.その情報に価値があるかである.そして,その価値を決めるのは,執筆者ではなく,読者である.だから,読者はウェブで見つけた情報を精査しなくてはいけない.信じられる情報か?本当の情報か?それを決めるのは読者自身である.信じるも信じないも,読者の自由である.だから,このブログを書いているのが4403なのかそうでないのかを判断するのも,あなた自身である.
まとめ:
前半と後半で全然違うことをいっているように思われるかも知れないけど,言いたいことは簡単で,ブログを書こうっていうことと,ウェブ上の情報を信頼するか否かは自分次第ってこと.だから,敢えて最後に書いてみる.このブログは4403が書いたものではありません.って.それに何の意味があるだろう.